การประมวลผลประสิทธิภาพสูงในยุคปัจจุบันเผชิญกับปัญหาหลัก "กำแพงหน่วยความจำ": การเติบโตอย่างรวดเร็วของอัตราการประมวลผล (FLOPS) ได้เกินข้อจำกัดที่เพิ่มขึ้นเล็กน้อยของ หน่วยความจำแบบทั่วโลก แบนด์วิดธ์ ความแตกต่างนี้ทำให้ระบบหลายคอร์ขนาดใหญ่กลายเป็นโปรเซสเซอร์ที่
1. ช่องว่างของแบนด์วิดธ์
แม้ว่า GPU จะสามารถดำเนินการได้ถึงหลายล้านครั้งต่อวินาที แต่เส้นทางทางกายภาพไปยังหน่วยความจำ DRAM ถูกจำกัดด้วยความหนาแน่นของขั้วไฟฟ้าและความต้องการพลังงาน หน่วยความจำเป็นปัจจัยจำกัดความขนาน หมายความว่าเมื่อเพิ่มจำนวนเธรด แบนด์วิดธ์ต่อเธรดจะลดลง ส่งผลให้เกิดรอบการทำงานที่ฮาร์ดแวร์ต้องรอคอยโดยไม่ได้ทำงาน
2. แนวคิดเปรียบเทียบเหมือนห้องครัว
ลองจินตนาการห้องครัวระดับพรีเมียม (คอร์ของ GPU) ที่สามารถปรุงอาหารได้ 1,000 จานต่อชั่วโมง แต่ส่วนผสมอยู่ที่โกดัง (หน่วยความจำทั่วโลก) ห่างออกไป 5 ไมล์ และมีแค่รถส่งของจักรยานคันเดียว (บัสหน่วยความจำ) ไม่ว่าจะจ้างเชฟมากเท่าไร ผลผลิตของคุณก็ถูกจำกัดด้วยความเร็วของรถส่งนั้น
3. ความแตกต่างด้านสถาปัตยกรรม
ระบบซีพียูหลายคอร์มาตรฐาน ใช้แคชขนาดใหญ่เพื่อซ่อนความล่าช้าสำหรับเธรดที่หนักหน่วงเพียงไม่กี่เธรด แต่สถาปัตยกรรมขนานขนาดใหญ่กลับเผชิญกับภาวะติดขัดเนื่องจากคำขอที่เกิดขึ้นพร้อมกันอย่างต่อเนื่อง ใช้แคชขนาดใหญ่เพื่อซ่อนความล่าช้าสำหรับเธรดที่หนักหน่วงเพียงไม่กี่เธรด แต่สถาปัตยกรรมขนานขนาดใหญ่กลับเผชิญกับภาวะติดขัดเนื่องจากคำขอที่เกิดขึ้นพร้อมกันอย่างต่อเนื่อง ข้อจำกัดด้านทรัพยากร ที่ระดับเรจิสเตอร์และหน่วยความจำร่วมกันกำหนดระดับขนานสูงสุด (การใช้งาน) ที่สามารถบรรลุได้ก่อนที่ฮาร์ดแวร์จะถูกเกินขีดจำกัด